#AI 工廠時代
【GTC大會】“AI 工廠時代降臨”: 黃仁勳GTC2025主旨演講圖文全文 3萬字|附視訊
【城主說】在昨晚萬眾矚目的 GTC 2025 大會上,輝達創始人兼 CEO 黃仁勳向世界宣告了 “AI 工廠”時代的正式到來:Blackwell 架構:算力迎來千倍躍升,奠定 AI 工廠基石黃仁勳再次拿出 Blackwell 架構, Blackwell 架構對比上一代 Hopper 架構,在推理性能上實現了驚人的 40 倍提升,部分場景甚至 高達 900 倍。Blackwell 的核心目標是建構 “AI 工廠”,如同工業革命時期的工廠一樣,AI 工廠將大規模生產 Token —— 人工智慧的基本構成單元,驅動各種智能應用。Blackwell 架構的效率也大幅提升,ISO 功率效率提升 25 倍,意味著在同樣的功耗下,能提供更強大的算力,這對於能源成本高昂的資料中心至關重要。NVLink 72 和 Dynamo:打造互聯互通的 AI 超級叢集為了充分發揮 Blackwell 架構的潛力,輝達推出了 NVLink 72 高速互聯技術,以及 Dynamo —— 專為 AI 工廠打造的 分佈式推理服務庫,堪稱 AI 工廠的 “作業系統”。NVLink 72 實現了 GPU 之間的無縫高速互聯,可以將成千上萬的 Blackwell GPU 組合成一個 巨型 GPU,突破算力瓶頸,實現真正的規模化擴展。Dynamo 負責 智能調度和最佳化 AI 工廠的資源,確保高效運行,並能靈活適應不同的工作負載,如同一個精密的 “AI 算力調度中心”。Rubin 平台:展望未來,算力持續狂飆黃仁勳預告了 Rubin 平台,作為 Blackwell 的繼任者,Rubin 將在 2027 年問世,再次帶來 跨越式性能提升。Rubin 平台將採用 NVLink 576 技術,實現更驚人的互聯規模,並使用 HBM4e 記憶體,進一步提升頻寬和容量,為未來的 AI 應用提供更強大的算力支撐。AI “全端” 戰略:從晶片到軟體,建構完整生態輝達展示了其強大的 CUDA-X 庫 生態系統,涵蓋了從物理學、生物學、到量子計算等各個科學領域,以及包括 cuPy、cuLitho、Parabricks、MONAI、CUDF、Warp 等 海量軟體庫,建構了完整的 AI 軟體基礎設施。輝達強調 “軟硬一體” 的戰略,不僅提供強大的硬體,更提供豐富的軟體工具和平台,降低 AI 開發門檻,加速 AI 應用的落地。宣佈開放原始碼專案, 展現輝達開放合作的態度, 積極建構繁榮的 AI 生態系統。AI “無處不在”:加速各行業智能化轉型黃仁勳指出,人工智慧正滲透到各個行業,從 雲服務、企業 IT、汽車、機器人,甚至到 電信基礎設施, AI 將無處不在。輝達正在與各行業巨頭合作,例如通用汽車、思科、T-Mobile 等,推動各行業的智能化升級。發佈 NVIDIA Isaac Groot N1 機器人通用基礎模型並開源, AI 將加速人形機器人的發展,解決勞動力短缺等社會挑戰。---以下是天空之城圖文整理版,共3萬字。(未經許可請勿轉載)(旁白)這就是智能的製造方式,一種新型工廠。Token生成器,人工智慧的基本構成單元。Token開啟了新的領域,邁向非凡世界的第一步。無限可能在那裡誕生。Token將圖像轉化為科學資料,繪製外星大氣圖譜,並指引未來的探險家。他們將原始資料轉化為預見,所以下一次,我們將做好準備。標記解碼物理定律,以讓我們更快地到達那裡,並帶我們走得更遠。標記在疾病發作之前就能發現它。它們幫助我們解開生命的語言,並瞭解是什麼讓我們運轉。Token串聯起各個要素,因此,我們能夠保護我們最珍貴的物種。Token將潛力轉化為豐饒,並幫助我們收穫豐碩的成果。Token不僅教導機器人如何移動,還能帶來快樂,為我們提供幫助,並使生活觸手可及。攜手並進,我們將邁出下一個偉大的飛躍,勇敢地前進,沒有人涉足的領域。而這裡,就是一切的開始。歡迎輝達創始人兼首席執行官黃仁勳先生登場。黃仁勳:歡迎來到GTC!真是令人驚嘆的一年。我們想在輝達做到這一點。因此,借助人工智慧的魔力,我們將帶您來到輝達的總部。我想我正在帶您來到輝達的總部,你覺得呢?這就是我們的工作場所。這真是令人驚嘆的一年。我們有很多令人難以置信的事情需要討論。我只想讓大家知道,我此刻是臨場發揮的。沒有預先準備的稿件,也沒有提詞器,而且我有很多內容需要涵蓋。那麼,讓我們開始吧。首先,我要感謝所有贊助商,感謝所有參與此次會議的傑出人士。幾乎所有行業都得到了代表。醫療保健行業也在場,交通運輸業,零售業。哎呀,電腦行業。電腦行業的每個人都來了。看到各位真是太好了,感謝你們的贊助。GTC始於GeForce。一切都始於GeForce。今天,我這裡有一塊GeForce 5090。令人難以置信的是,25年後,在我們開始研發GeForce的25年後,GeForce 5090在全球範圍內售罄。這是5090,Blackwell架構。與4090相比,其體積縮小了30%,能量耗散效率提升了30%,性能也極其出色。難以進行比較,其原因在於人工智慧。GeForce將CUDA技術帶給了世界。CUDA技術促進了人工智慧的發展,而人工智慧如今又反過來徹底革新了電腦圖形學。您所看到的這是即時的電腦圖形渲染,100%基於路徑追蹤。對於每個渲染的像素,人工智慧都會預測另外15個像素。請思考一下這一點。對於我們通過數學方法渲染的每一個像素,人工智慧都推斷出了另外15個像素。它必須以極高的精度進行推斷,才能使圖像看起來正確,並具有時間上的精準性。這意味著,無論是向前還是向後,逐幀畫面都必須保持時間上的穩定性。人工智慧取得了非凡的進步,這僅僅用了十年時間。當然,我們討論人工智慧的時間比這更長一些,但人工智慧真正進入全球公眾視野大約是在十年前。起初是從感知人工智慧開始,包括電腦視覺、語音識別,然後是生成式人工智慧。在過去的五年裡,我們主要關注生成式人工智慧,教會人工智慧如何在一個模態與另一個模態之間進行轉換,例如文字到圖像、圖像到文字、文字到視訊、氨基酸到蛋白質、特性到化學物質。我們可以利用人工智慧生成內容的各種不同方法。生成式人工智慧從根本上改變了計算的方式,我們從檢索式計算模型轉變為生成式計算模型。過去,我們幾乎所做的一切都是預先建立內容、儲存多個版本,並在使用時提取我們認為合適的版本。現在,人工智慧理解上下文,理解我們的請求,理解我們請求的含義,並生成它已知的內容。如果需要,它會檢索資訊,增強其理解,並為我們生成答案。它不再檢索資料,而是生成答案,從根本上改變了計算的方式,計算的每一層都發生了轉變。在過去的幾年裡,特別是最近兩三年,發生了重大的突破,人工智慧領域的基礎性突破。我們稱之為自主智能AI。自主智能AI,從根本上說,是指具備自主性的AI,它能夠感知和理解環境的上下文,能夠進行推理,能夠推理如何回答問題或如何解決問題,並且能夠計畫行動。它能夠計畫並採取行動,能夠使用工具。因為它現在能夠理解多模態資訊,所以它可以存取網站,查看網站的格式、文字和視訊,甚至可以播放視訊。從網站獲取的資訊中學習,理解這些資訊,然後返回並使用這些資訊,利用這些新獲得的知識來完成它的任務,具有自主代理能力的人工智慧。自主代理人工智慧的基礎是某種非常新穎的東西——推理能力。下一波浪潮已經到來,我們將對此進行詳細討論,即物理人工智慧賦能的機器人技術,能夠理解物理世界的人工智慧。它理解摩擦、慣性、因果關係和物體恆存性等概念。因此,這種理解物理世界(三維世界)的能力將開啟一個我們稱之為物理人工智慧的新時代,並將推動機器人技術的發展。每一個階段,每一波浪潮,都為我們所有人開啟了新的市場機遇,它為GTC吸引了更多的新合作夥伴。結果,GTC現在人滿為患。為了容納更多GTC的參與者,我們必須擴大聖何塞的規模,我們正在努力進行中。我們有很多土地可以利用,我們必須發展聖何塞。這樣我們才能讓GTC……我站在這裡,希望你們都能看到我看到的景象。我們身處一個體育場館的中央。去年是這項活動恢復線下舉辦的第一年,那感覺就像一場搖滾音樂會。GTC被描述為人工智慧的伍德斯托克音樂節。而今年,它被描述為人工智慧的超級碗。唯一的區別是,在這個超級碗上,人人都是贏家。因此,每年都有越來越多的人參與其中,因為人工智慧能夠為更多行業和公司解決更有趣的問題。而今年,我們將大量討論自主型人工智慧和物理人工智慧。其核心在於,每一波、每一階段的人工智慧發展,都涉及三個基本要素。首先是如何解決資料問題?之所以重要,是因為人工智慧是一種資料驅動的電腦科學方法。它需要資料來學習,需要數字型驗來學習,學習知識並獲得數字型驗。第二個問題是如何解決訓練問題?無需人工干預。人工干預之所以從根本上具有挑戰性,是因為我們的時間有限,而我們希望人工智慧能夠以超人的速度學習,以超即時速度學習,並能夠以人類無法企及的規模進行學習。第三點是如何實現規模化?如何找到一種演算法,使得無論提供何種資源,投入的資源越多,AI 就越智能?規模化定律。去年,幾乎全世界都錯了。AI 的計算需求,其規模化定律具有更強的韌性,事實上是超加速的。由於自主智能(Agentic AI)和推理能力的緣故,我們目前所需的計算量,比去年這個時候我們預期的要多至少100倍。讓我們來分析一下為什麼這是真的。首先,讓我們從AI的能力入手。讓我倒過來解釋。如我在所述,自主智能(Agentic AI)就是推理。我們現在擁有能夠進行推理的AI。這從根本上來說是關於將問題一步一步分解的過程。它可能會嘗試幾種不同的方法來解決問題,並選擇最佳答案。也許它會用多種方法解決同一個問題,並確保得到相同的答案,即進行一致性檢查。或者,在得出答案之後,它可能會將答案代回方程(例如二次方程)中,以確認答案的正確性。而不是僅僅直接給出答案。還記得兩年前,當我們開始使用ChatGPT時,儘管它是一個奇蹟,但許多複雜的問題和許多簡單的問題,它都無法正確解答。這是可以理解的。它採用了一種“一擊即中”的方式,利用其從預訓練資料中學習到的知識,以及從其他經驗中獲得的資訊(預訓練資料),然後直接給出答案,就像一條鮭魚一樣(直來直去)。現在我們擁有能夠逐步推理的人工智慧。使用稱為“思維鏈”(chain of thought)、“最佳N”(best of N)、“一致性檢查”(consistency checking)、多種不同路徑規劃以及各種不同技術,我們現在擁有能夠進行推理的人工智慧,將問題分解,然後進行推理,逐步進行。那麼,您可以想像,結果就是我們生成的標記數量增加了,而人工智慧的基本技術仍然相同,生成下一個標記,預測下一個標記。只不過下一個標記現在構成了步驟1。然後,在生成步驟1之後,下一個標記會將步驟1再次輸入人工智慧,從而生成步驟2、步驟3和步驟4。因此,它不是僅僅生成一個接一個的標記或單詞,而是生成代表推理步驟的單詞序列。結果生成的標記數量大幅增加,我稍後會向您展示,輕鬆地達到之前的百倍。那麼,百倍意味著什麼?嗯,它可以生成百倍數量的標記,正如我之前解釋的那樣,您可以看到這種情況正在發生。或者,模型更加複雜。它生成的標記數量是之前的十倍,為了保持模型的響應速度和互動性,避免我們因等待其思考而失去耐心,我們現在需要計算速度提高十倍。因此,標記數量十倍,速度十倍,我們必須進行的計算量輕鬆地就達到了百倍。因此,您將在演示的其餘部分看到,我們進行推理所需的計算量比以往大幅增加。那麼,問題就變成了,我們如何教會人工智慧執行我剛才描述的操作?如何執行這種思維鏈?嗯,一種方法是,你必須教會人工智慧如何推理。正如我之前提到的,在訓練過程中,我們必須解決兩個根本性問題。資料從何而來?資料從何而來?以及如何避免其受到人工干預的限制?我們所能提供的資料和人工演示是有限的。因此,過去幾年取得的重大突破是強化學習及其可驗證的結果。從根本上說,強化學習是指人工智慧在逐步嘗試解決問題或進行攻擊的過程中進行學習。人類歷史上已經解決了許多問題,我們知道這些問題的答案。我們知道求解二次方程的公式。我們知道如何運用勾股定理,也就是直角三角形的法則。我們掌握著大量數學、幾何、邏輯和科學規則。我們可以提供各種益智遊戲作為訓練素材。例如數獨之類的受限型問題。這類問題數不勝數,我們擁有數百種問題空間,能夠生成數百萬個不同的示例。通過強化學習,給予人工智慧在逐步解決問題過程中做得越來越好的獎勵,並使其擁有數百次機會。因此,我們使用了數百個不同的主題、數百萬個不同的示例和數百次的嘗試。每次嘗試都會生成數萬個標記。將所有這些加起來,我們談論的是數兆個標記,用於訓練該模型。現在,借助強化學習,我們能夠生成海量標記。這基本上是利用一種機器人式的方法來訓練AI,即合成資料生成。這兩者的結合給業界帶來了巨大的計算挑戰。而且您可以看到,業界正在做出回應。我接下來將向您展示的是四大雲服務提供商的Hopper伺服器出貨量。四大雲服務提供商,擁有公有雲的那些提供商:亞馬遜、Azure、GCP 和 OCI。四大雲服務提供商,不包括人工智慧公司,不包括所有初創企業,不包括企業內部部署。許多其他方面均未包含在內,只有那四個。只是為了讓您瞭解一下霍珀的巔峰年份和布萊克威爾的起始年份的對比。霍珀的巔峰年份和布萊克威爾的起始年份,這樣您就能看出,事實上,人工智慧正在經歷一個拐點。它變得更有用,因為它更聰明了,它能夠進行推理,它被更多地使用了。你可以看出它被更多地使用了,因為現在無論何時你使用ChatGPT,似乎都需要等待越來越久。這是一件好事,這表明很多人都在使用它,並且效果顯著。訓練這些模型和進行模型推理所需的計算量已大幅增長。因此,僅僅一年時間,而Blackwell才剛剛開始發貨,就能看到人工智慧基礎設施的驚人增長。這反映了整個行業的計算能力提升。我們現在看到的是——紫色部分是分析師對未來全球資料中心資本支出的預測,包括雲服務提供商(CSP)、企業等等。全球資料中心在未來十年內的發展,也就是到2030年。我之前說過,我預計資料中心建設投資將達到一兆美元,而且我相當肯定我們很快就會達到這個數字。兩種動態同時發生。第一種動態是,絕大部分增長可能會加速。這意味著我們已經知道一段時間了,通用計算已經走到盡頭,我們需要一種新的計算方法。全世界正在經歷一場平台轉變,從運行在通用電腦上的手工編碼軟體轉向運行在加速器和GPU上的機器學習軟體。這種計算方式目前已經過了臨界點。我們現在正看到拐點正在出現,全球資料中心建設中正在發生拐點。因此,首先是計算方式的轉變。其次是人們越來越認識到,軟體的未來需要資本投入。這是一個非常重要的概念。在過去,我們編寫軟體並在電腦上運行它,而在未來,電腦將為軟體生成Token。因此,電腦已成為Token的生成器,而非檔案的檢索工具。從基於檢索的計算轉變為基於生成的計算,從舊式資料中心建構方式轉變為建構新型基礎設施的新方式,我稱之為“AI工廠”。我稱之為“AI工廠”,因為它只有一個任務,那就是生成這些令人難以置信的Token,然後我們將這些Token重構為音樂、文字、視訊、研究成果、化學物質或蛋白質。我們將其重構為各種類型的資訊。因此,世界正在經歷一場轉型,這不僅體現在將要建設的資料中心數量上,也體現在其建設方式上。資料中心中的所有內容都將被加速,但並非所有內容都與人工智慧相關。這張幻燈片是我最喜歡的。多年來參加GTC的各位,一直在聽我談論這些庫。這張幻燈片正是GTC的核心所在。事實上,很久以前,20年前,這就是我們唯一擁有的幻燈片:一個又一個的庫,層層疊疊。我們不能僅僅加速軟體,正如我們需要一個AI框架來建立AI,並加速AI框架一樣。你需要物理學、生物學、多物理場以及各種量子物理學的框架。你需要各種庫和框架。我們稱它們為CUDAx庫,針對這些科學領域的加速框架。第一個就令人難以置信。這就是cuPy數值計算庫。NumPy是全球下載量和使用量最大的Python庫。去年下載量達4億次。cuLitho和cuPy數值計算庫是對NumPy的零改動加速替代方案。因此,如果您正在使用NumPy,請嘗試使用cuPy數值計算庫,您一定會喜歡它。cuLitho是一個計算光刻庫。在四年時間裡,我們已經完成了整個計算光刻處理流程,這相當於晶圓廠中的第二個工廠。一個工廠製造晶圓,另一個工廠製造製造晶圓所需的資訊。未來,每個行業、每家擁有工廠的公司都將擁有兩個工廠。一個工廠用於製造產品,另一個工廠用於處理數學計算。另一個工廠用於人工智慧。汽車工廠,以及用於汽車的人工智慧工廠。智能音箱的製造工廠,以及用於智能音箱的AI工廠。我們的計算光刻技術cuLitho,台積電(TSMC)、三星(Samsung)、ASML,以及我們的合作夥伴Synopsys、Mentor,都給予了令人難以置信的支援。我認為這已經達到了臨界點。再過五年,每一張掩範本,每一項光刻工藝都將在NVIDIA CUDA上進行處理。Arial是我們的5G庫,它將GPU轉變為5G無線電。為什麼不呢?訊號處理是我們非常擅長的事情。一旦我們做到這一點,我們就可以在其上疊加AI。 用於無線接入網的AI,或者我們稱之為AI-RAN。 下一代無線網路將深度嵌入AI。 為什麼我們會受到資訊理論限制的約束? 因為我們所能獲取的資訊頻譜是有限的,即使加入人工智慧也無法改變這一事實。CuOpt,數值或數學最佳化,幾乎每個行業在規劃座位和航班時都會用到它,庫存和客戶,工人和工廠,司機和乘客,等等。 我們面臨多個約束條件,以及大量的變數。 並且你正在針對時間、利潤、服務質量、資源利用率等等進行最佳化。 輝達將其用於供應鏈管理。 CuOpt是一個令人難以置信的庫。 它將原本需要數小時才能完成的任務縮短至幾秒鐘。 這之所以意義重大,是因為我們現在可以探索更大的空間。 我們宣佈將開源CuOpt。 幾乎每個人都在使用Gurobi、IBM CPLEX或FICO。 我們正在與這三家公司合作。 行業對此非常興奮。 我們即將極大地加速該行業的發展。Parabricks用於基因測序和基因分析。 MONI是世界領先的醫學影像庫。 Earth2,用於預測超高解析度局部天氣的多物理場模擬軟體。 量子計算(Q-Quantum)和量子到量子(Q2Q)技術。 我們將在GTC舉辦首屆量子計算日。 我們正與生態系統中的幾乎所有參與者合作。 我們協助他們進行量子架構、量子演算法的研究,或建構經典加速的量子異構架構。 因此,那裡的工作令人興奮。 量子等變性(Q-equivariance)和量子張量(Q-tensor)用於張量收縮和量子化學計算。當然,這個軟體棧享譽全球。 人們認為只有一種名為CUDA的軟體,但事實上,在CUDA之上還有許多庫,這些庫整合到生態系統、軟體和基礎設施的所有不同部分,以實現人工智慧。我今天要宣佈一個新的成果。 CUDSS,我們的稀疏求解器,對於電腦輔助工程(CAE)至關重要。 這是過去一年中最重要的突破之一。 通過與Cadence、Synopsys、Ansys和達索系統等所有系統公司合作,我們現在已經實現了幾乎所有重要的EDA和CAE庫的加速。 令人驚奇的是,直到最近,輝達仍在使用通用電腦運行軟體,速度非常慢,來為其他人設計加速電腦。 原因是直到最近,我們才擁有針對CUDA最佳化的軟體,即那套軟體。 因此,隨著我們轉向加速計算,整個行業都將得到極大的提升。CUDF,一個用於結構化資料的DataFrame,我們現在擁有對Spark和Pandas的即插即用式加速功能。我們還有Warp,一個在Python中運行的用於物理學的CUDA庫。我們對此有一個重大宣佈,我稍後再詳細說明。這只是能夠實現加速計算的庫的示例。這不僅僅是CUDA,我們為CUDA感到自豪,但如果沒有CUDA以及我們龐大的安裝基礎,這些庫對任何使用它們的開發者來說都將毫無用處。對於所有使用這些庫的開發者而言,你們之所以使用它們,首先是因為它能夠極大地提高速度,它能夠極大地提高規模。其次,因為CUDA的安裝基礎現在已遍佈全球。它存在於每一個雲平台、每一個資料中心,全球每一家電腦公司都提供它,它幾乎無處不在。因此,通過使用這些庫中的一個,你們的軟體,你們令人驚嘆的軟體,能夠觸及每個人。所以我們現在已經達到了加速計算的臨界點。CUDA 使這一切成為可能。各位,這就是GTC的意義所在,生態系統,是你們所有人成就了這一切。因此,我們為您製作了一段簡短的視訊。謝謝。致未來的創造者、先驅者和建設者,CUDA 是為你們而生的。自2006年以來,超過200個國家的600萬開發者使用了CUDA,並徹底改變了計算方式。借助900多個CUDAx庫和人工智慧模型,您正在加速科學發展,重塑產業格局,並賦予機器感知、學習和推理的能力。現在,NVIDIA Blackwell的速度比第一代CUDA GPU快50,000倍。這些數量級的速度和規模提升正在縮小模擬與即時數字孿生之間的差距。對您而言,這僅僅是一個開始。我們迫不及待地想看到你們的下一個成就。我熱愛我們所做的一切。我更欣賞你們對它的運用。在我從事這項工作33年裡,最令我感動的一件事是一位科學家對我說:“詹森,因為你的工作,我可以在有生之年完成我畢生的工作。”如果這都不能觸動你,那你一定是個沒有感情的人。所以這一切都是為了你們。謝謝。好吧,接下來我們談談人工智慧。但是,你們知道,人工智慧起源於雲端。它起源於雲端是有原因的,因為事實證明人工智慧需要基礎設施。它是機器學習。如果科學證明是機器學習,那麼就需要一台機器來進行科學研究。因此,機器學習需要基礎設施,而云資料中心擁有這種基礎設施。它們還擁有非凡的電腦科學實力和卓越的研究能力,構成了人工智慧在雲端和雲服務提供商(CSP)中蓬勃發展的理想環境。但人工智慧並非僅限於此。人工智慧將無處不在。我們將從許多不同的角度探討人工智慧。當然,雲服務提供商青睞我們的領先技術。他們欣賞我們擁有完整的技術堆疊,因為正如我之前解釋的那樣,加速計算不僅僅關乎晶片本身,甚至不僅僅是晶片和庫,以及程式設計模型。它包括晶片、程式設計模型以及在其之上運行的眾多軟體。整個技術堆疊都極其複雜,每一層,每一個庫,本質上都類似於SQL。SQL,正如您所知,被稱為儲存內計算,是IBM引領的計算領域的一次重大革命。SQL只是一個庫,試想一下。我剛剛向您展示了大量的庫,而且在人工智慧領域,還有更多庫。所以,這個技術堆疊非常複雜。他們也喜歡這樣一個事實:雲服務提供商(CSP)喜歡輝達CUDA開發者也是他們的客戶。因為最終,他們正在建構供全世界使用的基礎設施。因此,豐富的開發者生態系統受到了高度重視,並得到了深深的讚賞。既然我們要將人工智慧推廣到世界其他地區,那麼世界其他地區就會存在不同的系統組態、運行環境差異、特定領域的庫差異以及使用差異。因此,人工智慧在應用於企業 IT、製造業、機器人技術或自動駕駛汽車,甚至是在建構 GPU 雲的公司中,都會有所不同。在輝達時期,大約有[20]家公司成立,他們只做一件事:他們託管 GPU。他們稱自己為 GPU 雲。我們的一位重要合作夥伴 CoreWeave 正在上市過程中,我們為此感到非常自豪。因此,GPU 雲有其自身的要求。但令我非常興奮的一個領域是邊緣計算。今天,我們宣佈思科、輝達、T-Mobile(全球最大的電信公司)和 Cerberus ODC 將在美國建立一個用於無線網路的完整技術堆疊。這就是第二個技術堆疊。因此,我們今天宣佈的這個當前技術堆疊將把人工智慧部署到邊緣。請記住,全球每年有1000億美元的資本投資用於無線網路,以及所有為通訊提供服務的資料中心。未來,在我看來,毫無疑問,這將是融合了人工智慧的加速計算。人工智慧將在適應無線電訊號、大規模MIMO(多輸入多輸出)系統變化的環境和交通狀況方面做得更好得多。當然可以。當然我們會使用強化學習來做到這一點。當然,MIMO 本質上就是一個巨大的無線電機器人。當然是的。因此,我們當然會提供這些功能。當然,人工智慧可以徹底改變通訊方式。你知道,當我打電話回家時,不需要說很多話,因為我妻子知道我在那裡工作,工作環境如何。談話可以從昨天繼續進行。她多少記得我喜歡什麼,不喜歡什麼。很多時候,只需要幾句話,就能溝通很多資訊。原因在於上下文和人類先驗知識。結合這些功能,可以徹底改變通訊方式。看一下它對視訊處理的影響。看一下我之前描述的3D圖形技術。因此,我們當然也會對Edge採取同樣的做法。所以我對我們今天宣佈的消息感到非常興奮。T-Mobile、思科、輝達、Cerberus和ODC將建構一個完整的技術堆疊。嗯,人工智慧將滲透到各個行業。這只是一個例子。人工智慧進入最早的行業之一是自動駕駛汽車領域。當我們看到AlexNet的那一刻,我們長期以來一直在從事電腦視覺的研究,看到AlexNet的那一刻是如此令人鼓舞、如此令人興奮,這促使我們決定全力投入自動駕駛汽車的研發。所以我們現在已經在自動駕駛汽車領域工作了十多年。我們開發的技術幾乎被每一家自動駕駛汽車公司都在使用。它可以位於資料中心。例如,特斯拉在其資料中心大量使用輝達GPU。這可能位於資料中心或車輛中。Waymo和Wave也將其資料中心和車輛中使用輝達的電腦。它可能只在車輛中。這種情況非常罕見,但有時它只在車輛中。或者他們還會使用我們所有的軟體。我們與汽車行業合作,合作方式取決於汽車行業的需求。我們製造所有三種電腦:訓練電腦、模擬電腦和機器人電腦(自動駕駛汽車電腦)。以及位於其之上的所有軟體棧,包括模型和演算法,這與我們為其他所有已展示的行業提供的服務相同。因此,今天,我非常高興地宣佈,通用汽車公司已選擇輝達作為其未來自動駕駛汽車車隊的合作夥伴。自動駕駛汽車的時代已經到來。我們期待在所有三個領域與通用汽車人工智慧公司合作。用於製造業的人工智慧,以便徹底改變他們的製造方式。用於企業的人工智慧,以便徹底改變他們的工作方式。設計汽車和模擬汽車。以及車載人工智慧。因此,為通用汽車打造人工智慧基礎設施,與通用汽車合作,並與他們一起建構其人工智慧。我對此感到非常興奮。我深感自豪的領域之一,而且很少受到關注,那就是安全。汽車安全。它被稱為HALOS。在我們公司,它被稱為HALOS。安全需要從矽到系統、系統軟體、演算法、方法論等各個方面的技術,從確保多樣性到多樣性監控和透明性、可解釋性,所有這些都包括在內。所有這些不同的理念都必須深深融入到您開發系統和軟體的每一個環節中。我相信,我們是世界上第一家對每一行程式碼都進行安全評估的公司。七百萬行程式碼都經過了安全評估。我們的晶片、系統、系統軟體和演算法都經過了第三方的安全評估,他們會仔細檢查每一行程式碼,以確保其設計能夠保障多樣性、透明度和可解釋性。 我們還提交了超過一千項專利申請。在此次GTC期間,我強烈建議您抽出時間參加HALOS研討會,以便瞭解確保未來汽車安全和自主駕駛所需的所有不同方面。 我對此感到非常自豪,但它很少受到關注,所以我認為這次應該花更多時間來談論它。 輝達HALOS。你們都見過自動駕駛汽車。 Waymo自動駕駛計程車令人難以置信。 我們製作了一個視訊,與大家分享我們用於解決資料、訓練和多樣性問題的部分技術,以便利用人工智慧的魔力來創造人工智慧。(旁白)讓我們來看一看。 輝達正在通過Omniverse和Cosmos加速自動駕駛汽車的人工智慧開發。 Cosmos的預測和推理能力支援基於人工智慧的自動駕駛系統,這些系統採用端到端訓練方法,包括新的開發方法、模型蒸餾、閉環訓練和合成資料生成。首先,模型蒸餾。 Cosmos的駕駛知識,作為策略模型,從較慢、更智能的教師模型轉移到車載更小、更快的學生模型中。 教師策略模型展示了學生模型通過迭代學習所遵循的最佳軌跡,直至其性能幾乎達到與教師相同的水平。 蒸餾過程能夠引導策略模型的建立,但複雜場景需要進一步微調。閉環訓練能夠對策略模型進行精細調整。 利用Omniverse神經重建技術,將日誌資料轉換為用於物理基礎模擬閉環的3D場景。 建立這些場景的變體,以測試模型的軌跡生成能力。 Cosmos行為評估器隨後可以對生成的駕駛行為進行評分,以衡量模型性能。 新生成的場景及其評估建立了一個用於閉環訓練的大型資料集,幫助自動駕駛汽車更穩健地應對複雜場景。最後,3D合成資料生成增強了自動駕駛汽車對不同環境的適應性。 Omniverse從日誌資料中,通過融合地圖和圖像建構詳細的4D駕駛環境,並生成真實世界的數字孿生體,包括語義分割,以通過對每個像素進行分類來指導Cosmos。 然後,Cosmos通過生成精準且多樣化的場景來擴展訓練資料,縮小模擬與現實之間的差距。Omniverse和Cosmos使自動駕駛汽車能夠學習、適應並智能駕駛,從而提升出行安全。 輝達是完成這項工作的理想公司。這就是我們的命運:利用人工智慧來重塑人工智慧。 我們向您展示的技術與您正在享用的技術非常相似,帶您進入數字孿生世界,我們稱之為輝達。讓我們談談資料中心。布萊克韋爾項目已全面投產,這就是它的樣子。這令人難以置信,對人們而言,這是一種美的景象。 這意義重大,因為我們在電腦架構方面實現了根本性的轉變。大約三年前,我曾向你們展示過這個版本的系統,它被稱為Grace·Hooper,系統被稱為Ranger。 Ranger系統大概只有螢幕寬度的一半,它是全球首個NVLink 32系統。三年前,我們展示了Ranger的運行情況,當時它過於龐大,但其理唸完全正確。我們當時試圖解決規模擴展問題。 分散式運算是利用許多不同的電腦協同工作來解決一個非常大的問題。 但在橫向擴展之前,縱向擴展是不可替代的。 兩者都很重要,但應該優先進行縱向擴展,然後再進行橫向擴展。然而,縱向擴展極其困難,並沒有簡單的答案。 你不會像Hadoop那樣進行縱向擴展或橫向擴展。 Hadoop的做法是,採用大量商用電腦,將其連接到大型網路中,並使用其進行儲存計算。Hadoop 的理念具有革命性意義,這一點我們都很清楚。 它使得超大規模資料中心能夠利用現成的電腦解決海量資料問題。 然而,我們試圖解決的問題極其複雜,以這種方式進行擴展的成本將高得令人難以承受,無論是電力成本還是能源成本。 深度學習根本不可能出現。因此,我們必須首先進行垂直擴展。 這就是我們進行垂直擴展的方式。這是上一代系統架構,被稱為 HGX。 這徹底改變了我們所知的計算技術,也徹底改變了人工智慧。這是八個GPU,每一個都類似於這個。 這是兩個GPU,一個Blackwell封裝中包含兩個Blackwell GPU。 在這下面還有八個這樣的單元。 然後這連接到我們稱之為NVLink 8 的部件。然後這連接到類似這樣的CPU機架。 這裡有兩個CPU,位於頂部。 我們通過PCI Express將其連接起來,然後許多這樣的裝置通過InfiniBand連接,最終形成一台人工智慧超級電腦。 過去就是這樣做的,我們就是這樣開始的。這就是我們在擴展規模之前所能達到的極限。 但我們希望進一步擴展規模。 Ranger項目將這個系統又擴展了四倍。因此,我們有了NVLink 32,但系統規模過於龐大。為此,我們不得不進行一些重要的重新設計,包括NVLink的工作方式以及ScaleUp的工作方式。首先,我們需要將嵌入在主機板上的NVLink交換機從系統中解耦並移除。這是一個NVLink交換機,是世界上性能最高的交換機,它使得每個GPU都能以滿頻寬在完全相同的時間與其他每個GPU進行通訊。我們將NVLink交換機解耦並移除,並將其放置在機箱的中心。在九個不同的機架中,共有18個交換機托盤(我們稱之為)容納這些交換機。交換機解耦後,計算單元現在位於別處。這相當於計算方面的兩個部分。令人稱道的是,它是完全液冷的。通過液冷技術,我們可以將所有這些計算節點壓縮到一個機架中,這對於整個行業而言是一項重大變革。感謝各位,你們促成了從整合NVLink到解耦NVLink,從風冷到液冷,從每台電腦大約60,000個元件到每個機架600,000個元件的根本性轉變,以及120千瓦全液冷,從而使我們能夠在一個機架中擁有一個百億億次計算電腦。這是計算節點,現在它可以安裝到其中一個機架裡。我們擁有3000磅的重量,5000根電纜,總長度約3.2公里,難以置信的電子元件,60萬個零件,我想這相當於20輛汽車的零件數量,所有這些都整合到一台超級電腦中。我們的目標是大規模擴展,這就是它現在的樣子。我們本質上是想製造這個晶片,但沒有任何激進的限制能夠做到這一點,沒有工藝技術能夠做到這一點。它擁有130兆個電晶體,其中20兆個用於計算。因此,短期內無法合理地製造它。解決這個問題的方法,如我所描述的,是將它分解成Grace Blackwell NVLink 72機架。最終,我們實現了終極規模的提升,這是世界有史以來最極端的規模提升。這台機器可能的計算量和記憶體頻寬達到了每秒570太字節。這台機器中的所有指標都達到了兆等級。它擁有每秒一千兆次浮點運算能力(即艾克斯浮點運算)。我們之所以想要做到這一點,是為瞭解決一個極端的問題。許多人誤以為這個問題很容易解決,但實際上,這是一個終極的極端計算問題,那就是推理。推理是工廠進行的Token生成過程,而工廠本身決定著收益和利潤的產生或虧損。因此,必須以極高的效率和性能來建構這個工廠,因為工廠的方方面面都直接影響著服務質量、收入和盈利能力。現在,我來向您展示如何解讀這張圖表,因為我稍後還會多次回到這張圖表上來。基本上,它有兩個坐標軸。X 軸表示每秒Token數。每當您聊天,或者將提示輸入到 ChatGPT 時,輸出的結果都是Token。這些Token會被重新組合成文字。需要注意的是,這不僅僅是一個Token對應一個單詞。它們會將諸如“THG”之類的詞元化,它可以指代“the”、“them”、“theory”、“theatrics”,以及其他各種詞語。“THG”就是一個Token的例子。它們重新建構這些標記,使其轉化為單詞。如果希望 AI 更聰明,就需要生成大量的標記。這些標記是推理標記、一致性檢查標記,它們會想出很多主意,以便從中選擇最好的主意和標記。這些標記可能會反覆推敲,可能會思考:“這是你能做的最好的工作嗎?”所以它就像我們自言自語一樣,與自身對話。因此,你生成的標記越多,你的 AI 就越聰明。但是,如果回答問題花費的時間太長,客戶就不會再回來了。這與網頁搜尋沒有什麼不同。在它給出聰明答案之前,所需時間確實存在限制。因此,你需要應對這兩個維度的挑戰。你試圖生成大量的標記,但又試圖儘可能快地完成。因此,您的Token速率至關重要。所以您希望針對單個使用者的每秒Token數儘可能快。然而,在電腦科學和工廠生產中,延遲響應時間和吞吐量之間存在根本性矛盾。如果你從事大型、高吞吐量的業務,你會進行批次處理。你將大量的客戶需求進行批次處理,並生產特定版本的產品供所有人稍後使用。然而,從他們進行批次處理和生產產品的那一刻起,到您使用它為止,可能需要很長時間。電腦科學領域亦是如此,生成Token的 AI 工廠也同樣如此。所以,你面臨著這兩種根本性的矛盾。一方面,您希望客戶的服務質量儘可能好:快速且智能的 AI。另一方面,您正試圖讓您的資料中心為儘可能多的人生成Token,以便最大化您的收入。理想的答案位於右上方。理想情況下,該曲線的形狀是一個正方形,您可以快速地為每個人生成Token,直到工廠的極限,但沒有那個工廠能夠做到這一點。因此,它可能是一條曲線,而您的目標是最大化曲線下的面積,即X和Y的乘積,並且您推得越遠,就越有可能意味著您正在建造一個更好的工廠。事實證明,在每秒Token數(整個工廠的每秒Token數)與響應時間之間,一個需要大量的計算能力(浮點運算),而另一個維度則需要大量的頻寬和浮點運算。所以這是一個非常難以解決的問題。好的答案是,您應該擁有大量的浮點運算能力、大量的頻寬、大量的記憶體以及其他一切資源。這是開始的最佳答案,這也是為什麼這是一台如此出色的電腦的原因。你首先要擁有儘可能多的浮點運算能力、儘可能大的記憶體、儘可能高的頻寬,當然還要有最好的架構和最高的能效,並且你必須擁有一個程式設計模型,使你能夠在所有這些極其複雜的硬體上運行軟體才能做到這一點。現在讓我們來看一個演示,讓你對我說的是什麼有一個切實的感受。請播放它。傳統的LLM捕捉基礎知識,而推理模型則利用思維標記來幫助解決複雜問題。在這裡,一個提示要求在婚禮餐桌旁安排座位,同時遵守一些限制條件,例如傳統習俗、照片角度以及家族成員之間的矛盾。傳統的LLM能夠快速地給出答案,使用的標記少於500個。它在安排賓客座位時犯了錯誤,而推理模型則使用了超過8000個標記進行思考,最終得出了正確的答案。這需要一位牧師來維持和平。好吧,正如你們所知,如果你有一個300人的婚禮派對,並且你試圖找到完美的,或者說最佳的座位安排,這是一個只有人工智慧才能解決或者只有岳母才能解決的問題。所以,這是協同計算無法解決的問題之一。好,您在這裡看到的是,我們給它提供了一個需要推理的問題,您看到R1會就此進行推理,嘗試所有不同的場景,然後返回來檢驗自己的答案。它會自問是否做對了。同時,上一代語言模型則採用一次性解決方法。因此,一次性解決方法使用了439個標記。它速度很快,效率很高,但結果是錯誤的。所以,這是439個被浪費的標記。另一方面,為了對這個問題進行推理(實際上這是一個非常簡單的問題,只需增加幾個更難的變數,它就會變得非常難以推理),它使用了8000個,幾乎9000個標記。而且它需要更多的計算,因為模型更加複雜。好,這是一個維度。在我向您展示一些結果之前,請允許我解釋其他一些內容。因此,答案是,如果你觀察Blackwell系統,現在它已經擴展到NVLink 72。我們首先要做的是處理這個模型,而這個模型並不小。以R1為例,人們認為R1很小,但它有6800億個參數。下一代模型可能擁有數兆個參數。解決這一問題的方法是將這些數兆個參數和模型,將工作負載分佈到整個GPU系統中。可以使用張量平行,將模型的一層運行在多個GPU上;也可以取流水線的一部分,稱之為流水線平行,並將其放在多個GPU上;還可以將不同的專家模型放在不同的GPU上,我們稱之為專家平行。流水線平行、張量平行和專家平行的組合方式數量龐大,令人難以置信。並且根據模型、工作負載和環境的不同,電腦的組態方式必須改變,以便獲得最大的吞吐量。有時需要最佳化極低的延遲,有時則需最佳化吞吐量,因此必須進行一些執行階段批處理。批處理和聚合工作有很多不同的技術。因此,這些AI工廠的作業系統和軟體極其複雜。其中一個觀察結果,也是擁有像NVLink 72這樣同構架構的真正優勢在於,每個GPU都能執行我剛才描述的所有操作。我們觀察到這些推理模型正在進行幾個計算階段。其中一個計算階段是思考。當你在思考時,不會產生很多標記。你產生的標記可能你自己在使用,你在思考。也許你正在閱讀,正在消化資訊。這資訊可能是PDF文件,也可能是網站,甚至可以觀看視訊,以超線性速率吸收所有這些資訊,然後將所有這些資訊整合起來,形成答案,制定一個計畫性的答案。因此,資訊消化和上下文處理非常依賴於浮點運算。另一方面,在下一階段,稱為解碼階段,其第一部分我們稱為預填充,解碼的下一階段需要浮點運算,但需要巨大的頻寬。而且計算起來相當容易。如果你有一個模型,它有數兆個參數,那麼每秒需要幾TB的資料,注意我之前提到過每秒576TB,僅僅是從HBM記憶體中提取模型就需要每秒TB級的資料。而且僅僅是為了生成一個標記。它之所以只生成一個標記,是因為記住這些大型語言模型是在預測下一個標記,這就是它們預測下一個標記的原因。它不是預測每一個標記,而只是預測下一個標記。現在我們有了各種新的技術,例如推測性解碼等等,用於更快地完成這項工作,但最終,你是在預測下一個標記。因此,你攝取、調入整個模型和上下文(我們稱之為KV快取),然後生成一個標記。然後我們將這個標記放回我們的“大腦”,生成下一個標記。每次執行此操作,我們都輸入數兆個參數,輸出一個標記。數兆個參數輸入,輸出另一個標記。數兆個參數輸入,輸出另一個標記。請注意,在演示中,我們輸出了8600個標記。因此,數兆字節的資訊已被輸入到我們的GPU中,並一次輸出一個標記。這從根本上解釋了為什麼需要NVLink。NVLink使我們能夠將所有這些GPU組合成一個巨大的GPU,實現最終的規模擴展。現在所有內容都在NVLink上,我可以將預填充與解碼分離,並可以決定:我想為預填充使用更多GPU,為解碼使用更少GPU。因為我正在進行大量的思考,進行一項自主性的工作,閱讀大量資訊。我正在進行深入的研究。之前我一直在聽邁克爾講話,邁克爾也談到了他正在進行的研究,而我做的也是同樣的事情。我們會開展並撰寫這些非常冗長的AI研究項目,我非常喜歡做這件事。我已經為此付出了代價,我非常享受讓我們的GPU運轉起來。沒有什麼能給我帶來更大的快樂。所以我在撰寫完畢後,它就開始運行,進行所有這些研究,它訪問了大約94個不同的網站,閱讀了所有這些資訊,而我也在閱讀所有這些資訊,然後它會形成一個答案並撰寫報告。這真是令人難以置信。在那段時間裡,預填充一直非常繁忙。它並沒有真正生成很多標記。另一方面,當您與聊天機器人進行對話,並且數百萬人在做同樣的事情時,它就需要非常大量的標記生成。解碼工作量非常大。因此,根據工作負載,我們可能會決定將更多GPU分配到解碼,或者根據工作負載,將更多GPU分配到預填充。這種動態操作非常複雜。我剛剛描述了流水線平行、張量平行、專家平行、飛行中批處理、解耦推理、工作負載管理,然後我還要處理一個叫做KV快取的東西,我必須將其路由到正確的GPU,我必須通過所有記憶體層次結構來管理它。這段軟體極其複雜。因此,今天我們宣佈推出輝達Dynamo。輝達Dynamo能夠做到這一切。它本質上是AI工廠的作業系統。在過去,在我們運行資料中心的方式中,我們的作業系統類似於VMware。我們會(而且現在仍然會),協調大量不同的企業應用程式在我們企業IT之上運行,我們也是大型使用者。但未來,應用程式並非企業IT,而是智能體。作業系統也不再是VMware之類的軟體,而是Dynamo之類的軟體。而且這個作業系統運行的並非資料中心之上,而是AI工廠之上。我們將其命名為Dynamo是有充分理由的。如您所知,Dynamo是啟動上次工業革命的首個動力機械。這是能源的工業革命。水流入,電力流出,這著實神奇。水流入,將其點燃,變成蒸汽,隨後產生的便是這種無形卻極其寶貴的東西。歷經八十年發展,才有了交流電,但發電機是這一切的起點,是開端。因此,我們將這個作業系統,這套軟體——極其複雜的軟體——命名為輝達發電機(NVIDIA Dynamo)。它是開放原始碼的,我們很高興有諸多合作夥伴與我們共同開發。我最喜歡的合作夥伴之一,我非常喜歡他,不僅因為他所做的革命性工作,還因為阿拉文德是一個非常好的人。Perplexity是我們合作攻克這一難題的重要夥伴。總之,非常好,非常好。現在我們必須等待所有這些基礎設施擴展完畢,但與此同時,我們已經進行了一系列非常深入的模擬。我們用超級電腦模擬我們的超級電腦,這很有道理。現在我將向大家展示我剛才所說的一切的好處。記住工廠示意圖。Y軸表示工廠的每秒Token吞吐量,X軸表示使用者體驗的每秒Token吞吐量。你需要超級智能的AI,並且需要生產大量的AI。這是Hopper。它可以為每個使用者每秒產生大約100個Token。這使用了八個GPU,通過InfiniBand互聯,我將其標準化為每兆瓦每秒的token數量。所以這是一個兆瓦級的資料中心,並非一個非常大型的AI工廠,但無論如何,它是一兆瓦的。它可以為每個使用者每秒產生100個token,並且在這個等級上,無論實際情況如何,它可以為該兆瓦級資料中心每秒產生10萬個token。或者,如果進行超級批次處理,並且客戶願意等待很長時間,那麼該AI工廠每秒可以產生大約250萬個token。明白了嗎?記住,兩百五十萬,ChatGPT 的成本大約是每百萬個詞元10美元,對吧?每百萬個詞元10美元。讓我們假設一下,我認為每百萬個詞元10美元的成本可能比較低,但我可能會說它比較低,但讓我假設它比較高,因為兩百五十萬乘以10,那就是每秒2500萬美元。這樣理解有道理嗎?這就是你思考問題的方式。或者,如果成本低得多,那麼問題在於,假設是10萬美元,將其除以10。每個工廠每秒25000美元。然後是3100萬,一年大約有3000萬秒,這就能轉化為百萬級,兆瓦級資料中心的營收。所以這就是您的目標。一方面,您希望您的Token速率儘可能快,以便您可以創造真正智能的AI,如果擁有智能AI,人們就會為此支付更多費用。另一方面,AI越智能,您所能生產的數量就越少。這是一個非常合理的權衡。這就是我們試圖改變的曲線。現在,我向您展示的是世界上最快的電腦——Hopper。它徹底改變了一切。那麼,我們該如何改進它呢?因此,我們首先提出使用NVLink 8的Blackwell架構。同樣的Blackwell架構,相同的計算單元,以及使用FP8的NVLink 8計算節點。因此,Blackwell更快了。更快、更大、更多電晶體,一切都要更多。但我們想做的不止這些,因此我們引入了新的精度。這並不完全像4位浮點數那樣簡單,但使用4位浮點數,我們可以量化模型,用更少的能量做同樣的事情。因此,當您使用更少的能量做同樣的事情時,您可以做得更多。因為請記住,一個重要的觀點是,未來每一個資料中心都將受到電力限制。您的收入將受到電力限制。您可以根據可用的電力來計算您的收入。這與許多其他行業沒有什麼不同。所以我們現在是一個受電力限制的行業。我們的收入將與此相關聯。基於此,您需要確保擁有儘可能高效節能的計算架構。接下來,我們將使用 NVLink 72 進行擴展。請看 NVLink 72 FP4 的差異,由於我們的架構高度整合,現在我們又加入了 Dynamo,Dynamo 可以進一步擴展其性能。所以 Dynamo 也能幫助 Hopper,但對 Blackwell 的幫助更大。現在請注意我標出的這兩個閃光點,這大概就是您的最大 Q 值所在。這很可能就是您運行工廠營運的地方。您正在嘗試在人工智慧的最大吞吐量和最大質量之間找到平衡點。最智能的人工智慧,以及最大數量的人工智慧。這兩者的交點,正是您最佳化的目標。這就是在查看這兩個方塊下方時呈現的樣子。Blackwell 的性能遠優於 Hopper。請記住,這並非指 ISO 晶片。而是指 ISO 功率。這是最終的摩爾定律,始終是過去摩爾定律的核心所在。 現在我們實現了這一目標,在單代產品中實現了 25 倍的 ISO 功率提升。這不是ISO晶片,也不是ISO電晶體,更不是任何ISO相關的元件。 ISO功耗,是最終的限制因素。 資料中心所能獲得的能量是有限的。 因此,在ISO功耗限制下,Blackwell方案的效率提升了25倍。現在我們看到了這張彩虹圖,令人難以置信。 這才是有趣的部分。 看,在帕累托前沿之下,有各種不同的組態方案,我們稱之為帕累托前沿。 在帕累托前沿之下,存在數百萬種我們本可以用來組態資料中心的方法。 我們本可以以許多不同的方式將工作平行化、分割和分片。 而我們找到了最優解,也就是帕累托前沿。好的,帕累托邊界。 而且,由於顏色不同,每一個點都代表著不同的組態。 這張圖像非常清晰地說明了為什麼我們需要一個可程式設計架構,使其儘可能地具有同質可替代性。 因為工作負載在整個邊界上變化非常劇烈。看,在頂部,我們有專家平行8,批次大小為3000,去聚集關閉,Dynamo關閉。 在中間,專家平行64,其中26%用於上下文,因此Dynamo開啟,上下文佔用26%,其餘74%未使用。 批次大小為64,一個使用專家平行64,另一個使用專家平行4。 然後在底部,我們有張量平行16與專家平行4,批次大小為2,上下文佔用1%。 電腦的組態在整個範圍內都在發生變化。然後,就會發生這種情況。 這是一個輸入序列長度的例子,它是一種比較通用的測試用例。 這是一種您可以相對輕鬆地進行基準測試的測試用例。 輸入為1000個標記,輸出為2000個。 請注意,我們之前向您展示了一個演示,其中輸出非常簡單,為9000,對吧,8000。 所以很明顯,這並不能僅代表那一次對話。 而這一次更具有代表性。 這就是目標所在,即建構面向下一代工作負載的下一代電腦。這是一個推理模型的示例。 在這個推理模型中,Blackwell的性能是Hopper的40倍。 直接說吧。 非常驚人。你知道,我之前說過,有人確實問過,你知道,我為什麼要那樣說? 但我之前說過,一旦Blackwell公司開始批次發貨,你就會發現Hopper產品供過於求,幾乎無人問津。 我說的就是這個意思。 這是合理的。 如果還有人想購買Hopper產品,不用擔心,沒關係。但是…… 我是首席收入破壞者。 我的銷售人員會說,哦,不,別那樣說。 霍珀在某些情況下表現良好。 這是我所能對霍珀做的最好評價了。你在某些情況下也表現良好,但情況不多。如果我必須採取行動,這就是我的觀點。當技術發展如此迅速,工作量如此巨大,並且你們正在建造這些類似工廠的東西時,我們真的希望你們投資於正確的版本。為了便於理解,這就是一座100兆瓦工廠的樣子。基於Hoppers公司的方案,您擁有45,000個沖壓模具、1400個機架,每秒可生產3億個代幣。以下是Blackwell公司的方案。您擁有86個……我們並非試圖減少您的購買量。我們的銷售人員說,Jensen,你正在減少他們的購買量,但這是更好的方案。總之,您購買越多,節省越多。事實上,情況比這還要好。現在,你購買得越多,賺取的就越多。總之,請記住,一切都在人工智慧工廠的背景下進行,一切現在都處於人工智慧工廠的語境之中。雖然我們談論晶片,但你總是要從規模化開始。全面規模化。你能將什麼最大限度地規模化?我現在想向你展示人工智慧工廠是什麼樣的,但人工智慧工廠非常複雜。我剛才只給你舉了一個機架的例子,它擁有60萬個部件,重達3000磅。現在,你必須把它與許多其他部件連接起來。因此,我們開始建構我們所說的每個資料中心的數字孿生。在建構資料中心之前,你必須建構一個數字孿生。讓我們來看一看這個。這簡直令人難以置信地美麗。(旁白)世界各國都在競相建設最先進的大規模人工智慧工廠。建設一座人工智慧千兆工廠是一項非凡的工程壯舉,需要來自供應商、建築師、承包商和工程師的數萬名工人來建造、運輸和組裝近50億個元件和超過20萬英里的光纖,幾乎相當於地球到月球的距離。輝達Omniverse人工智慧工廠數字孿生藍圖使我們能夠在物理建設開始之前設計和最佳化這些人工智慧工廠。在此,輝達工程師利用藍圖規劃一座千兆瓦人工智慧工廠,整合了最新輝達DGX超級計算叢集的三維和佈局資料,以及來自Vertip和施耐德電氣的先進電力和冷卻系統,並通過輝達AIR(一個用於模擬網路邏輯、佈局和協議的框架)進行了拓撲最佳化。這項工作傳統上是在各個孤立的部門進行的。Omniverse藍圖使我們的工程團隊能夠平行協同工作,讓我們能夠探索各種組態以最大限度地降低總擁有成本(TCO)並提高電力使用效率。輝達利用由CUDA和Omniverse庫加速的Cadence Reality數字孿生技術模擬空氣和液體冷卻系統,並使用施耐德電氣的eTap應用程式模擬電力模組的效率和可靠性。即時模擬使我們能夠在幾秒鐘內完成迭代並運行大型假設場景,而無需耗費數小時。我們使用數字孿生技術向眾多團隊和供應商傳達指令,從而減少執行錯誤並加快部署時間。在規劃改造或升級時,我們可以輕鬆地測試和模擬成本和停機時間,確保人工智慧工廠具有未來發展潛力。這是第一次有人在建構資料中心時會認為:“哇,這太漂亮了!”目前我們正全面生產Blackwell系列產品。全球各地的電腦公司都在大規模地生產這些令人難以置信的機器。我非常高興也很感激大家為過渡到這個新的架構而付出的努力。在今年下半年,我們將輕鬆過渡到升級版。因此,我們將推出Blackwell Ultra MB-Link 72。如您所知,它的處理能力提升了1.5倍。它具有新的注意力指令。其記憶體提升至原來的1.5倍。所有這些記憶體可用於諸如KB快取之類的用途。網路頻寬也提升至原來的兩倍。因此,現在我們擁有相同的架構,將能夠平滑過渡。這被稱為Blackwell Ultra,將於今年下半年推出。所有公司都表示“下一個”是有原因的。事實上,這正是我希望得到的回應。原因是我們正在建設人工智慧工廠和人工智慧基礎設施,這需要多年的規劃。這不像購買一台筆記型電腦那樣簡單,也不是可隨意支配的支出。這是我們必須規劃的支出,包括土地和電力供應,以及資本支出,並組建工程團隊。我們必須提前一兩年,甚至兩三年進行規劃。這就是為什麼我們會提前兩三年向您展示我們的路線圖的原因,這樣我們就可以避免在五月份給您帶來意外。經過多年的規劃,下一個階段,也就是一年之後,是以一位天文學家的名字命名的。她的孫輩們也在場。她的名字是維拉·魯賓。她發現了暗物質。維拉·魯賓令人難以置信,因為其CPU是全新的,性能是Grace的兩倍,記憶體更大,頻寬更高。然而,它只是一個只有50瓦的小型CPU,這確實令人難以置信。而且,魯賓系統使用了全新的GPU,CX9,全新的網路智能網路卡(NIC),NVLink 6,全新的NVLink互聯技術,以及新型的記憶體HBM4。總體而言,除了底盤之外,其他一切都是全新的。通過這種方式,我們可以在一個方向上承擔很大的風險,而不會危及與基礎設施相關的許多其他方面。因此,Vera Rubin,NVLink 144,將於明年下半年推出。現在,我犯了一個錯誤,所以,我只需要你們做出這個調整:Blackwell實際上是一個Blackwell晶片中的兩個GPU。我們稱單個晶片為GPU是錯誤的,原因是這會打亂所有NVLink的命名法等等。因此,展望未來,無需返回Blackwell進行修復,當我說NVLink 144時,它僅僅意味著它連接到144個GPU,並且每一個GPU都是一個GPU晶片,並且它可以組裝在某個封裝中,其組裝方式可能會隨時變化。所以,每個GPU晶片就是一個GPU。每個NVLink都連接到GPU。因此,Vera Rubin,NVLink 144,這就為下半年,以及次年我們稱之為Rubin Ultra的產品奠定了基礎。所以,Vera Rubin Ultra。 這是Vera Rubin,Rubin Ultra,27的後半部分。它採用NVLink 576,實現了極大規模的擴展。每個機架的功率為600千瓦,由250萬個部件組成。而且,顯然,還有大量的GPU,並且所有的一切都乘以X因子進行了提升。所以,浮點運算次數增加了14倍,達到15億億次浮點運算(15 exaflops)。正如我之前提到的,現在是15億億次浮點運算,而非1億億次浮點運算,實現了規模的擴大。並且其記憶體達到了300,大概是4.6PB(拍字節)。所以,頻寬規模提升到了每秒4600TB(太字節)。我指的不是聚合頻寬,我指的是規模提升的頻寬。當然,還有全新的NVLink交換機和CX9。請注意,共有16個站點,每個封裝包含4個GPU,採用極高速的NVLink互聯。現在,讓我們來瞭解一下它的規模。這就是它的樣子。現在,這將會很有趣。所以,您現在正在全力提升Grace Blackwell的性能。我並非想把它比作筆記型電腦,但這就是它的樣子。這就是Grace Blackwell的形態。魯本的形態也是如此。ISO維度。因此,換句話說,在進行橫向擴展之前,必須先進行縱向擴展。在進行橫向擴展之前,需要先進行縱向擴展。然後,在那之後,我們將利用令人驚嘆的技術進行橫向擴展。所以,首先進行縱向擴展。這讓您瞭解我們前進的速度,這是縱向擴展的浮點運算次數。這是縱向擴展的浮點運算次數。Hopper的性能是基準的1倍,Blackwell是68倍,Rubin是900倍。規模化擴展Flop。然後,如果我將其轉換為,本質上是您的總擁有成本(TCO),即功率在上,每單位功率在下,下面是曲線下方的面積,也就是曲線下的正方形,它基本上是浮點運算次數乘以頻寬。所以,衡量您的AI工廠是否取得進展的一個非常簡單的直覺檢驗方法是,用瓦特數除以那些數字。您可以看到,Rubin將大幅降低成本。這就是輝達的路線圖,非常簡短。一年一次,像鐘錶一樣精確。一年一次。我們如何進行規模化擴展?我們引入了,我們正在準備進行橫向擴展。那是規模擴展,使用了NVLink技術。我們的規模擴展網路是InfiniBand和Spectrum X。大多數人都很驚訝我們進入了乙太網路領域。我們決定使用乙太網路的原因是,如果我們能夠幫助乙太網路達到InfiniBand的性能,擁有InfiniBand的特性,那麼網路本身將更容易被所有人使用和管理。因此,我們決定投資Spectrum,我們稱之為Spectrum X,並將擁塞控制、極低延遲和作為我們計算結構一部分的少量軟體的特性融入其中。結果,我們使Spectrum X的性能極其出色。我們使用Spectrum X建構了有史以來最大的單一GPU叢集,作為一個巨大的叢集。這就是Colossus(巨型電腦系統)。還有許多其他的例子。Spectrum X無疑對我們來說是一個巨大的成功。我非常期待的一個領域是,最大的企業網路公司將採用Spectrum X並將其整合到其產品線中,以便幫助全球企業成為人工智慧公司。我們在CX7上擁有10萬個使用者。現在CX8即將推出,CX9也即將推出。在Rubin任職期間,我們希望將GPU數量擴展到數十萬個。現在,將GPU擴展到數十萬個面臨的挑戰在於擴展連接。擴展連接使用的是銅纜。我們應該儘可能地使用銅纜。這大約是一到兩米左右的距離。這提供了令人難以置信的良好連接性、非常高的可靠性、非常好的能源效率以及非常低的成本。因此,我們在擴展中儘可能多地使用銅纜。然而,在橫向擴展場景下,資料中心如今已如同體育場般巨大,我們需要一種更長距離運行的解決方案。這就是矽光子學發揮作用的地方。矽光子學的挑戰在於其收發器功耗巨大。從電訊號到光訊號的轉換需要經過序列-平行轉換器(SerDes)、收發器以及多個序列-平行轉換器。好,讓我們把它投影到螢幕上,這樣我可以向大家展示我正在討論的內容。好的,首先,我們宣佈輝達首個採用共封裝光子系統的方案。它是全球首個1.6太位元每秒的共封裝光學器件(CPO)。它基於一種名為微環諧振器調製器(MRM)的技術。並且它完全採用我們與台積電(TSMC)合作已久,令人難以置信的工藝技術建構而成。我們與龐大的技術提供商生態系統合作,共同發明了即將向您展示的技術。這真的是一項令人難以置信的技術,極其令人難以置信的技術。我們之所以決定投資微環諧振器調製器(MRM),是為了利用MRM令人難以置信的密度和功耗優勢,其密度和功耗比用於電信的馬赫曾德爾干涉儀(Moxander)更好,後者用於電信中資料中心之間的通訊。甚至在我們使用的收發器中,我們也使用馬赫曾德爾干涉儀(Moxander),因為到目前為止,密度要求並不高。所以,如果您看看這些收發器,這是一個收發器的例子。這是一個插頭,功率是30瓦,大量購買價格是1000美元。此側為電源介面,此側為光纖介面。光訊號通過黃色介面輸入。您將此插頭插入交換機。其中包含收發器、雷射器,並採用名為Moxander的技術。我們使用它將資料從GPU傳輸到交換機,再到下一個交換機。然後是下一個交換機,再下一個交換機,例如連接到GPU。因此,如果我們有10萬個GPU,我們這邊就會有10萬個這樣的元件,然後是另外10萬個元件,用於連接交換機與交換機。然後在另一側,我將其歸因於另一個網路卡(NIC)。如果我們有25萬個GPU,我們將增加一層交換機。因此,每個GPU,所有25萬個GPU,每個GPU將有六個收發器,每個GPU將有六個這樣的插頭。這六個插頭每個GPU將增加180瓦的功耗,每個GPU 180瓦,每個GPU 6000美元的成本。所以問題是,我們如何將規模擴大到數百萬個GPU?因為如果我們有100萬個GPU乘以6,那就是600萬個收發器乘以30瓦,也就是1.8億瓦的收發器功耗。它們沒有進行任何計算,只是移動訊號。因此,問題在於,我們如何,我們能夠如何負擔得起,正如我之前提到的,能源是我們最重要的商品。最終一切事物都與能源相關,因此這將通過減少180兆瓦的電力來限制我們的收入和客戶的收入。因此,這是我們所做的令人驚奇的事情。我們發明了世界上第一台微鏡MRM,這就是它的樣子。那裡有一個小的波導,您可以在波導上看到,它通向一個環,該環產生共振,並控制波導在繞行時的反射率,從而限制和調製能量,即通過的光量。它通過吸收光來關閉它,或者讓它通過。它將這種直接的連續雷射束轉換為1和0。這就是奇蹟。然後,這項技術——光子積體電路——與電子積體電路堆疊在一起,然後與一堆微透鏡堆疊在一起,再與稱為光纖陣列的東西堆疊在一起。這些部件都是使用台積電的這項技術(他們稱之為COOP)製造的,並使用3D COAS技術進行封裝,並與所有這些技術提供商(我之前剛剛展示過它們的名字)合作,最終將其轉變為這台令人難以置信的機器。那麼讓我們來看一下這段視訊。這簡直是一項技術奇蹟。它們變成了這些交換機,我們的 InfiniBand 交換機,矽晶片運行狀況極佳。今年下半年我們將交付矽光交換機,明年下半年我們將交付 Spectrum X。得益於 MRM 的選擇,得益於我們在過去五年中承擔的令人難以置信的技術風險,我們申請了數百項專利,並將技術授權給我們的合作夥伴,以便我們都能製造它們,現在我們能夠將矽光子技術與共封裝選項相結合,無需收發器,光纖直接連接到我們的交換機,基數為 512。這就是 512 個連接埠。任何其他方法都根本無法做到這一點。因此,這使我們能夠擴展到這些擁有數十萬甚至數百萬個 GPU 的系統。其益處,您可以想像一下,令人難以置信。在資料中心,我們可以節省數千萬瓦的電力。假設是十兆瓦,或者說六十兆瓦。六兆瓦相當於十個Rubin Ultra機架。六十兆瓦的電力相當可觀。我們現在可以將一百個Rubin Ultra機架的電力部署到Rubin系統中。我們的路線圖是:每年進行一次架構更新,每兩年進行一次整體架構升級,每年推出一條新的產品線,實現X因素的提升。我們嘗試逐步承擔矽片、網路或系統機箱的風險,以便在追求這些令人難以置信的技術時,能夠推動行業向前發展。薇拉·魯賓,我非常感謝她的孫輩們來到這裡。這是我們認可她並為她所做出的傑出工作致敬的機會。我們下一代產品將以費曼命名。接下來是輝達的路線圖。讓我來和您談談企業計算,這非常重要。為了將人工智慧帶入全球企業,我們首先需要轉向輝達的不同部門。高斯散點圖的美妙之處。為了將人工智慧帶入企業,讓我們退一步,提醒自己這一點。請記住,人工智慧和機器學習已經徹底重塑了整個計算堆疊。處理器不同了,作業系統不同了,頂層的應用程式也不同了。應用程式的運行方式不同,編排方式不同,執行方式也均不同。舉一個例子,您訪問資料的方式將與過去 fundamentally 不同。未來,我們不會再精確地檢索所需資料,然後閱讀並嘗試理解它,而是會像使用Perplexity那樣進行操作。我們不再那樣檢索資訊,而是直接向Perplexity提出我的問題,提問,然後它會給出答案。未來,企業IT也將採用這種方式運作。我們將擁有作為數字勞動力一部分的AI代理。全球有數十億知識型員工,未來可能會有100億數字員工與我們並肩工作。未來,全球3000萬軟體工程師中的100%都將借助AI輔助工具。我對此深信不疑。到今年年底,輝達100%的軟體工程師都將借助AI輔助工具。因此,人工智慧代理將無處不在。它們的運行方式、企業的運行方式以及我們的運行方式都將發生根本性的改變。所以我們需要新一代的電腦。這才是個人電腦應有的樣子:20 petaflops(千兆次浮點運算),令人難以置信。72個CPU核心,晶片間介面,高頻寬記憶體(HBM),此外,還有一些PCI Express插槽用於您的GeForce顯示卡。這叫做DGX Station。DGX Spark和DGX Station將由所有原始裝置製造商(OEM)提供,包括惠普、戴爾、聯想、華碩。它將面向全球的資料科學家和研究人員生產。這是人工智慧時代的電腦,這就是電腦應該的樣子,這也是未來電腦的運行方式。我們現在為企業提供了一整套產品線。我們提供從小型機到工作站、伺服器,再到超級電腦的各類產品。這些產品將由我們所有的合作夥伴提供。我們還將徹底革新其餘的計算架構。請記住,計算具有三大支柱,其一是計算本身,而你們正在見證它的發展。其二是網路,正如我之前提到的,Spectrum X 將面向全球企業,建構一個人工智慧網路。第三是儲存。儲存必須徹底重新設計,它將不再是基於檢索的儲存系統,而是一個基於語義的儲存系統。因此,該儲存系統必須持續不斷地將資訊嵌入到後台。它接收原始資料,將其嵌入到知識中,然後當您訪問它時,您無需檢索它,而只需與它進行互動。你可以向它提問,也可以給它提出問題。其中一個例子是Box公司的Aaron,他甚至將其上傳到雲端,並與我們合作將其上傳到雲端。它基本上是一個超級智能的儲存系統。未來,每個企業都將擁有這樣的系統。這就是未來的企業儲存。我們正在與整個儲存行業合作,他們都是非常棒的合作夥伴,包括DDN、戴爾、惠普企業、日立、IBM、NetApp、Nutanix、Pure Storage、Vast和Weka。基本上,全球整個儲存行業都將提供這一技術堆疊。首次,您的儲存系統將實現GPU加速。戴爾將提供全系列的輝達企業級IT人工智慧基礎設施系統以及在其上運行的所有軟體。因此,您可以看到我們正在徹底變革全球企業。我們今天還宣佈了這款令人難以置信的模型,每個人都可以運行。此前我向您展示了R1,一個推理模型。我將它與Llama 3(一個非推理模型)進行了比較。很明顯,R1要聰明得多。但我們還可以做得更好,我們可以使其成為任何公司都可用的企業級產品。現在它完全開源,是我們稱之為NIMS的系統的一部分。您可以下載它,可以在任何地方運行它。您可以在DGX Spark上運行它。您可以在DGX Station上運行它。您可以在原始裝置製造商(OEM)生產的任何伺服器上運行它。您可以在雲端運行它。您可將其整合到您的任何自主智能(Agentic AI)框架中。我們正與世界各地的公司合作。我將快速瀏覽這些內容,請仔細觀看。我想感謝一些在座的優秀合作夥伴。埃森哲,朱莉·斯威特和她的團隊正在建構他們的AI工廠和AI框架。Amdocs,全球最大的電信軟體公司。AT&T公司,John Stanky及其團隊正在建構一個AT&T人工智慧系統,一個具有自主代理能力的系統。Larry Fink和貝萊德團隊正在建構他們的系統。未來,Anyrood公司不僅會招聘ASIC設計人員,還會招聘大量來自Anyrood Cadence的數字ASIC設計人員來幫助我們設計晶片。因此,Cadence公司正在建構其人工智慧框架。正如您所看到的,在每一個系統中,都整合了NVIDIA模型、NVIDIA NIMS和NVIDIA庫。因此,您可以將其在本地、雲端或任何雲平台上運行。Capital One,一家在技術應用方面最為先進的金融服務公司,廣泛使用了NVIDIA的技術。德勤公司,Jason及其團隊。ENY公司,Janet及其團隊。納斯達克公司,Dina及其團隊。將輝達技術整合到他們的AI框架中。然後是克里斯蒂安和他在SAP的團隊。比爾·麥克德莫特和他在ServiceNow的團隊。首先,這是一個主題演講,其第一張幻燈片就花了30分鐘。然後所有其他幻燈片也都花了30分鐘。接下來,我們換個地方吧。我們來談談機器人技術。機器人時代已經到來。機器人能夠與物理世界互動並執行數字資訊無法完成的任務,這是它們的優勢所在。我們非常清楚地知道,世界正面臨著嚴重的勞動力短缺。到本十年末,全世界至少將短缺5000萬名工人。我們非常樂意支付每位工人5萬美元的年薪以吸引他們來工作。我們可能不得不每年支付機器人5萬美元的“薪水”以使其投入工作。因此,這將是一個非常龐大的產業。各類機器人系統層出不窮。您的基礎設施將實現機器人化。倉庫和工廠中將部署數十億個攝影機。全球約有1000萬到2000萬家工廠。正如我之前提到的,每輛汽車實際上都是一台機器人。現在,我們正在建造通用機器人。讓我向您展示我們是如何做到的。所有移動的物體都將實現自主化。物理人工智慧將賦能各類機器人,應用於各行各業。三台輝達製造的電腦支援機器人人工智慧的持續循環模擬、訓練、測試和真實世界經驗反饋。機器人訓練需要海量資料。網際網路規模的資料提供了常識和推理能力,但機器人還需要行動和控制資料,而這些資料的獲取成本很高。(旁白)利用基於輝達Omniverse和Cosmos建構的藍圖,開發者可以生成海量多樣化的合成資料,用於訓練機器人的策略。首先,在Omniverse中,開發者根據不同的領域、機器人和任務,整合真實世界的感測器資料或演示資料。然後利用Omniverse對Cosmos進行條件處理,將原始採集資料擴增為海量逼真且多樣化的數據。開發者使用Isaac Lab利用增強的資料集對機器人策略進行後期訓練。並通過模仿學習克隆行為,或通過試錯法以及強化學習AI反饋,讓機器人學習新技能。實驗室練習與真實世界有所不同。新策略需要進行現場測試。開發者使用Omniverse進行軟體和硬體在環測試,在具有真實世界環境動態、領域隨機化、物理反饋和高保真感測器模擬的數字孿生體中模擬策略。真實世界的操作需要多個機器人協同工作。Mega,一個Omniverse藍圖,允許開發者大規模測試經過後期訓練的機器人策略叢集。在此,富士康在一個虛擬的輝達Blackwell生產工廠中測試異構機器人。當機器人大腦執行其任務時,它們通過感測器模擬感知其行動的結果,然後規劃下一個行動。Mega 允許開發者測試許多機器人策略,使機器人能夠作為一個系統工作,無論是空間推理、導航、移動性還是靈巧性方面。令人驚奇的事物誕生於模擬之中。今天,我們推出 NVIDIA Isaac Groot N1。Groot N1 是一個用於人形機器人的通才基礎模型。它建立在合成資料生成和模擬學習的基礎之上。Groot N1 採用了一種雙系統架構,用於快速和慢速思考,其靈感來自於人類認知處理的原理。慢速思考系統允許機器人感知和推理其環境和指令,並規劃正確的行動。快速思考系統將計畫轉化為精確且連續的機器人動作。Groot N1 的泛化能力使機器人能夠輕鬆地操縱常見物體並協同執行多步驟序列。通過完整的合成資料生成和機器人學習流程,人形機器人開發者可以對Groot N1進行跨多種形態、任務和環境的後期訓練。全世界各個行業的開發者都在使用輝達的三款電腦來建構下一代具身人工智慧。物理人工智慧和機器人技術發展迅速。每個人都應該關注這一領域。這很可能成為所有行業中規模最大的一個。其核心在於,我們面臨著同樣的挑戰。正如我之前提到的,我們關注三個方面。這些問題具有系統性。首先,如何解決資料問題?如何以及在那裡建立訓練人工智慧所需的資料?其次,模型架構是什麼?第三,縮放損失是什麼?我們如何擴展資料、計算能力或兩者兼顧,從而使人工智慧越來越智能?我們該如何進行擴展?這兩個基本問題同樣存在於機器人領域。在機器人領域,我們建立了一個名為Omniverse的系統,它是我們用於物理人工智慧的作業系統。長期以來,你們都聽我談論過Omniverse。我們向其中加入了兩項技術。今天,我將向你們展示兩件事。其一,是為了讓我們能夠擴展具有生成能力和能夠理解物理世界的生成模型的AI。我們稱之為Cosmos。利用Omniverse來調節Cosmos,並利用Cosmos生成無限數量的環境,使我們能夠建立紮實可靠的資料。這些資料紮實可靠,受我們控制,同時又具有系統性的無限性。正如您所見,在Omniverse中,我們使用糖果色來舉例說明我們如何完美地控制場景中的機器人,而Cosmos可以建立所有這些虛擬環境。第二點,正如我們之前所討論的,當今語言模型令人難以置信的擴展能力之一是強化學習,以及可驗證的獎勵。問題是,機器人技術的可驗證獎勵是什麼?正如我們非常清楚的那樣,那就是物理定律。可驗證的物理獎勵。因此,我們需要一個令人難以置信的物理引擎。嗯,大多數物理引擎的開發都有各種各樣的原因,可能是為了大型機械裝置而設計,也可能是為了虛擬世界、電子遊戲等等而設計。但我們需要一個專為精細、剛性和軟體設計的物理引擎。該引擎的設計目標是能夠訓練觸覺反饋、精細動作技能和執行器控制。我們需要它能夠進行GPU加速,以便這些虛擬世界能夠以超線性時間、超即時的方式運行,並以極快的速度訓練這些AI模型。我們還需要它與全球機器人專家都在使用的框架——MuJoCo——和諧地整合。所以今天我們要宣佈一些真正特別的東西。這是三家公司的合作成果,分別是DeepMind、迪士尼研究和輝達,我們將其命名為Newton。讓我們來看看Newton。謝謝。你覺得新的物理引擎怎麼樣?你喜歡它,是嗎?是的,我敢打賭。我知道。觸覺反饋、剛體、柔體、模擬、超即時。你能想像剛才你所看到的一切都是即時模擬嗎?未來我們將以此方式訓練機器人。順便說一下,藍色機器人內部有兩台電腦,兩台輝達顯示卡。看你多聰明。是的,你很聰明。嘿,藍色機器人,聽著。我們把它帶回家怎麼樣?我們結束這場主題演講吧。該吃午飯了。你準備好了嗎?我們把它結束掉吧。我們還有一個公告。你表現得很好。就站在這裡。好的,很好。 。我們還有另一個令人振奮的消息。我告訴過你們,我們的機器人技術取得了巨大進展。今天,我們宣佈Groot N1將開源。我想感謝各位的光臨。讓我們總結一下。感謝各位參加GTC大會。我們討論了幾個方面。第一,Blackwell已全面投產,而且發展勢頭令人難以置信。客戶需求非常旺盛。這是有充分理由的。因為人工智慧正處於一個拐點,由於推理型人工智慧和代理型人工智慧系統的訓練,我們需要進行的人工智慧計算量大幅增加。第二,配備Dynamo的Blackwell NVLink 72的AI工廠性能是Hopper的40倍。隨著人工智慧的擴展,推理將在未來十年成為最重要的工作負載之一。第三,我們已為您制定了年度路線圖,以便您規劃您的AI基礎設施。然後,我們正在建設兩到三個AI基礎設施,分別面向雲端的AI基礎設施、面向企業的AI基礎設施以及面向機器人的AI基礎設施。我們還有一個驚喜為您準備。感謝大家。感謝所有使這段視訊成為可能的合作夥伴。感謝所有使這段視訊成為可能的各位。祝您GTC大會圓滿成功。謝謝。 ( Web3天空之城)